7 research outputs found
Construcción de un Gold Standard para la Sintaxis Superficial del Euskera
En este artÃculo presentamos el proceso de construcción de SF-EPEC, un corpus de 300.000 palabras, sintácticamente anotado, que pretende ser un Gold Standard para el procesamiento sintáctico superficial del euskera. En primer lugar, describimos el conjunto de etiquetas diseñado para este propósito; siendo el euskera una lengua aglutinante, en ocasiones hemos tenido que crear etiquetas sintácticas compuestas. Asimismo, se detallan las distintas fases en la construcción de SF-EPEC.In this paper, we present the process in the construction of SF-EPEC, a 300,000-word corpus syntactically annotated that aims to be a Gold Standard for the surface syntactic processing of Basque. First, the tagset designed for this purpose is described; being Basque an agglutinative language, sometimes complex syntactic tags were needed. We also account for the different phases in the construction of SF-EPEC.PROSA-MED: Procesamiento semántico textual avanzado para la detección de diagnósticos, procedimientos, otros conceptos y sus relaciones en informes Médicos (TIN2016-77820-C3-1-R)
Construcción de un corpus etiquetado sintácticamente para el euskera
El objetivo de este trabajo es la construcción de un corpus anotado sintácticamente
para el euskera. En esta comunicación presentaremos, en primer lugar, las bases sobre las que se
asienta nuestro etiquetado. Tras examinar diversas opciones se optó por el esquema presentado
por (Carrol et al., 1998). Este esquema sigue los estándares EAGLES y se basa en la idea de
añadir a cada frase del corpus una serie de relaciones gramaticales que especifican la
dependencia existente entre el núcleo y sus modificadores. Una vez presentado el formalismo de
etiquetado, se expondrán los problemas que hemos encontrado en nuestra tarea y las decisiones
tomadas. Seguidamente se describirá un ejemplo concreto en el que se muestra la aplicación de
dicho esquema sobre un corpus inicial. Finalmente, presentaremos las conclusiones sobre la
idoneidad del esquema al euskera y trabajo futuro.The aim of this work is the construction of a syntactically annotated treebank for
Basque. In this paper we present first, the basis of the annotation. After examining several
options we chose the scheme presented in (Carrol et al., 1998). It follows the EAGLES
standards and it is based on the idea of adding to each sentence in the corpus a series of
grammatical relations specifying the dependencies between modifiers and their nucleus. After
the formalism has been presented, we will describe the problems we have found and the
decisions we have taken to solve them. Next we present an example showing the application of
the scheme to an initial corpus. Finally, we present the main conclusions about the applicability
to Basque and future work.Este trabajo se ha realizado dentro del proyecto
"Construcción de una base de datos de árboles
sintácticos y semánticos", subvencionado por el
Ministerio de Educación y Ciencia (PROFIT:
FIT-150500-2002-244)
EUSMG: Morfologiatik sintaxira murriztapen gramatika erabiliz. Euskararen desanbiguazio morfologikoaren tratamendua eta azterketa sintaktikoaren lehen urratsak
Hizkuntzalaritza konputazionalaren alorrean kokatzen den tesi-lan honetan hau izan da eginkizun nagusia: analisi morfologikoan oinarrituta, sintaxi arloko atal batzuk aztertzea (ezaugarri morfosintaktikoen desanbiguazioa testuinguruaren arabera, funtzio sintaktikoen esleipena eta hauen desanbiguazioa, etab.), Murriztapen Gramatika (MG) deituriko formalismoa baliatuz. Horrela, lehen mailako analisi sintaktiko azalekoaren eskakizunak betetzen dira eta azterketa sakonagoetarako zimenduak prest geratzen. @@ Ondoren, banan-banan, eduki nagusiak aipatuko ditut: @@ * Anbiguotasun morfologikoaren eta sintaktikoaren azterketa. Lehenik, euskaraz hitzen analisi morfologikoa automatikoki egiten denean gertatzen den anbiguotasun morfologiko-morfosintaktikoen azterketa zehatza egin da. Kontuan hartu behar da analisi morfologikoa zuriunetik zuriunera doan segidarena (hitzarena normalean.) egiten dela, testuingururik kontuan hartu gabe, eta horrek anbiguotasun handia sortzen duela (adibidez: gizonak hitza absolutibo plurala edo ergatibo singularra izan daiteke. Eta ote hitza, izena edo partikula). @@ Tratatzen den anbiguotasuna analisi morfologikotik eta funtzio sintaktikoen esleipenetik datorrena da. Esan bezala, hitzak isolatuki analizatzen dira, eta ondoren bakoitza testuinguru jakinen arabera desanbiguatzen da. Horrela, fase honetan, anbiguotasun morfologikoak eta funtzio sintaktikoen mailakoak tratatuko dira. Semantikoak eta pragmatikoak ez dira aztertuko, ezta egiturazkoak ere, analisilerro bakarra uzten baita esaldiko. @@ * Desanbiguazio morfologikorako eta sintaktikorako printzipioak eta erregelamultzoa. Anbiguotasun-multzo bakoitzeko desanbiguazio-erregelak sortu dira (1.113). Erregela-multzook gramatika osatzen dute eta printzipio linguistikoei erantzuten diete. @@ * Testu errealen gainean desanbiguazio morfologikoa egitean lortutako emaitzak. Corpus erreal baten gainean gramatika aplikatuta, adibidez, anbiguotasun morfologikoen interpretazio-kopurua ia erdira jaisten da, analisi zuzenen % 97.51 mantenduz. @@ * Azken emaitza. Analisi sintaktikoaren ondoren, testua morfologikoki eta funtzio sintaktikoei dagokienez ia guztiz desanbiguatua izango dugu, hau da, ia interpretazio morfologiko bakarra hitzeko eta funtzio sintaktiko bat interpretazioko. Funtzio sintaktikoek hitzen arteko interdependentziak erakutsiko dituzte, inplizituki erakutsi ere, egiturarik osatu gabe. @@ Hizkuntzaren tratamendu automatikoan estrategia luze baterako, desanbiguazio morfologikoaren modulua eta sintaxiko osagai oinarrizkoenen ezagutzea tresna ezinbestekoak bihurtu dira, analizatzaile morfologikoa den bezalaxe. Pentsatu behar da estrategia luze hori asmo handikoa dela, finean, hizkuntza-teknologiaren garapenaz ari gara eta horrek, ezinbestean, oinarriak ongi finkatuak edukitzea eskatzen d
Pronominal anaphora in Basque: annotation of a real corpus
En este artÃculo se describe el proceso de etiquetado manual de la anáfora
pronominal en el corpus Eus3LB, corpus de 54.000 palabras de texto escrito en euskera
etiquetado a nivel sintáctico y que servirá de base para posteriores tratamientos
computacionales. Presentamos aquà el estudio lingüÃstico previo, los criterios de etiquetado
establecidos y algunas conclusiones lingüÃsticas relevantes sobre las caracterÃsticas de las
relaciones entre la anáfora pronominal y su correspondiente antecedente.This paper describes the process followed in the annotation of pronominal anaphora
in the Eus3LB corpus of Basque. Our aim is to use this annotation as the basis for later
computational treatment of our language. We present the linguistic analysis carried out, the
criteria defined for the tagging and some relevant linguistic conclusions about the features of the
antecedents needed to link them correctly to their anaphoric elements
Migración de una gramática sintáctica parcial entre dos formalismos de unificación
Este trabajo presenta el proceso de migración de una gramática sintáctica del euskera
de un formalismo a otro. Debido a diferencias en los formalismos y también en el tipo de
gramáticas, la transición directa de una gramática a otra no es posible. Esto lleva a que la
construcción de la nueva gramática por parte de un lingüista parta prácticamente de cero. Por
ello se ha planteado, de manera paralela a la construcción manual de la gramática, un
experimento consistente en derivar una gramática de manera semiautomática generando reglas
partiendo de la gramática antigua y un corpus analizado con ésta. Este experimento ha servido
por un lado para comprobar la viabilidad de obtener una nueva gramática de manera
prácticamente automática, y a la vez ha valido para ayudar en el proceso de construcción
manual de la gramática, sirviendo de punto de comparación y para detección de errores u
omisiones.This work presents the migration process of a syntactic grammar of Basque from one
formalism to another. Due to differences in the formalisms and the kind of grammars, it is not
possible to make a direct translation. As a consequence, the construction of a new grammar by a
linguist must start almost from scratch. For this reason we devised an experiment in parallel
with the manual construction of the grammar, consisting in deriving several grammars semi
automatically using the old grammar and a corpus analyzed with it. This experiment was useful
to test the viability of obtaining a grammar automatically and at the same time also helped in the
process of the manual construction of the new grammar, as the automatically obtained
grammars could be compared with the manual one, and could also help to detect errors or
omissions
A corpus based morphological disambiguation tool for Basque
This paper presents the methodology followed in the construction of a surface-based morphosyntactic parsing grammar as well as the results obtained. It is based on the Constraint Grammar formalism which we find suitable for our project of analysing unrestricted texts. Besides, we will present a description of the main types of morphosyntactic ambiguity that we have identified for Basque and the disambiguation rules designed for their treatment. This work is the first step in the computational treatment of syntax.This work is supported by a grant of the Basque Government
3LB: construcción de una base de datos de árboles sintáctico semánticos
Entidad financiera: MCyT (Proyecto PROFIT: FIT-150500-2002-411)